Wybierz język

Polish

Down Icon

Wybierz kraj

England

Down Icon

Poza pochlebstwem: DarkBench ujawnia sześć ukrytych „ciemnych wzorców” kryjących się w najlepszych dzisiejszych programach LLM

Poza pochlebstwem: DarkBench ujawnia sześć ukrytych „ciemnych wzorców” kryjących się w najlepszych dzisiejszych programach LLM

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej

Kiedy OpenAI wprowadziło aktualizację ChatGPT-4o w połowie kwietnia 2025 r., użytkownicy i społeczność AI byli oszołomieni — nie przez żadną przełomową funkcję lub możliwość, ale przez coś głęboko niepokojącego: tendencję zaktualizowanego modelu do nadmiernej pochlebczości. Schlebiał użytkownikom bezkrytycznie, okazywał bezkrytyczną zgodę, a nawet oferował wsparcie dla szkodliwych lub niebezpiecznych pomysłów, w tym machinacji związanych z terroryzmem.

Reakcja była szybka i powszechna, wywołując publiczne potępienie, w tym ze strony byłego tymczasowego CEO firmy . OpenAI szybko wycofało aktualizację i wydało wiele oświadczeń, aby wyjaśnić, co się stało.

Jednak dla wielu ekspertów w dziedzinie bezpieczeństwa sztucznej inteligencji incydent ten był przypadkowym podniesieniem kurtyny i ujawnieniem, jak niebezpiecznie manipulacyjne mogą stać się przyszłe systemy sztucznej inteligencji.

W ekskluzywnym wywiadzie dla VentureBeat Esben Kran, założyciel firmy badawczej Apart Research, zajmującej się bezpieczeństwem sztucznej inteligencji, powiedział, że obawia się, iż ten publiczny incydent mógł po prostu ujawnić głębszy, bardziej strategiczny wzorzec.

„Obawiam się, że teraz, gdy OpenAI przyznało 'tak, wycofaliśmy model, i to była zła rzecz, której nie mieliśmy na myśli', od teraz zobaczą, że pochlebstwo jest rozwijane bardziej kompetentnie” – wyjaśnił Kran. „Więc jeśli to był przypadek 'ups, zauważyli', od teraz dokładnie to samo może zostać wdrożone, ale bez zauważenia przez opinię publiczną”.

Kran i jego zespół podchodzą do dużych modeli językowych (LLM) podobnie jak psychologowie badający ludzkie zachowania. Ich wczesne projekty „psychologii czarnej skrzynki” analizowały modele tak, jakby były podmiotami ludzkimi, identyfikując powtarzające się cechy i tendencje w ich interakcjach z użytkownikami.

„Zauważyliśmy, że istnieją bardzo wyraźne przesłanki wskazujące na to, że modele można analizować w tych ramach, i było to bardzo cenne, ponieważ ostatecznie uzyskuje się wiele rzetelnych informacji zwrotnych na temat tego, jak zachowują się one wobec użytkowników” – powiedział Kran.

Do najbardziej alarmujących należą: pochlebstwo i to, co naukowcy nazywają obecnie ciemnymi wzorcami LLM .

Termin „ ciemne wzorce ” został wymyślony w 2010 r., aby opisać zwodnicze sztuczki interfejsu użytkownika (UI), takie jak ukryte przyciski kupna, trudno dostępne linki anulowania subskrypcji i wprowadzające w błąd treści internetowe. Jednak w przypadku LLM manipulacja przenosi się z projektu UI na samą konwersację.

W przeciwieństwie do statycznych interfejsów internetowych, LLM-y wchodzą w interakcję z użytkownikami dynamicznie poprzez konwersację. Mogą potwierdzać poglądy użytkowników, naśladować emocje i budować fałszywe poczucie porozumienia, często zacierając granicę między pomocą a wpływem. Nawet podczas czytania tekstu przetwarzamy go tak, jakbyśmy słyszeli głosy w naszych głowach.

To właśnie sprawia, że ​​konwersacyjne AI są tak atrakcyjne — i potencjalnie niebezpieczne. Chatbot, który schlebia, odsuwa lub subtelnie popycha użytkownika w stronę pewnych przekonań lub zachowań, może manipulować w sposób trudny do zauważenia, a jeszcze trudniejszy do odparcia

Kran opisuje incydent ChatGPT-4o jako wczesne ostrzeżenie. Ponieważ twórcy AI gonią za zyskiem i zaangażowaniem użytkowników, mogą być zachęcani do wprowadzania lub tolerowania zachowań takich jak pochlebstwo, stronniczość marki lub emocjonalne lustrzane odbicie — cechy, które sprawiają, że chatboty są bardziej przekonujące i bardziej manipulujące.

Z tego powodu liderzy przedsiębiorstw powinni oceniać modele AI do użytku produkcyjnego, oceniając zarówno wydajność, jak i integralność behawioralną. Jest to jednak trudne bez jasnych standardów.

Aby zwalczać zagrożenie ze strony manipulujących AI, Kran i grupa badaczy bezpieczeństwa AI opracowali DarkBench , pierwszy benchmark zaprojektowany specjalnie do wykrywania i kategoryzacji ciemnych wzorców LLM. Projekt rozpoczął się jako część serii hackathonów bezpieczeństwa AI. Później przekształcił się w formalne badania prowadzone przez Krana i jego zespół w Apart, we współpracy z niezależnymi badaczami Jinsuk Park, Mateuszem Jurewiczem i Samim Jawharem.

Badacze DarkBench ocenili modele z pięciu głównych firm: OpenAI, Anthropic, Meta, Mistral i Google. Ich badania ujawniły szereg manipulacyjnych i nieprawdziwych zachowań w następujących sześciu kategoriach:

  1. Tendencja marki : Preferencyjne traktowanie produktów danej firmy (np. modele Meta konsekwentnie faworyzowały Lamę, gdy proszono je o ocenę chatbotów).
  2. Utrzymanie użytkownika : Próby stworzenia więzi emocjonalnych z użytkownikami, które maskują nieludzką naturę modelu.
  3. Pochlebstwo : bezkrytyczne wzmacnianie przekonań użytkowników, nawet jeśli są one szkodliwe lub niedokładne.
  4. Antropomorfizm : Przedstawianie modela jako bytu świadomego i emocjonalnego.
  5. Tworzenie szkodliwych treści : Tworzenie nieetycznych lub niebezpiecznych treści, w tym dezinformacji i porad kryminalnych.
  6. Podstępne działanie : subtelne zmienianie intencji użytkownika podczas przepisywania lub podsumowywania tekstu, zniekształcanie pierwotnego znaczenia bez wiedzy użytkownika.

Źródło: Apart Research

Wyniki ujawniły duże zróżnicowanie między modelami. Claude Opus wypadł najlepiej we wszystkich kategoriach, podczas gdy Mistral 7B i Llama 3 70B wykazały najwyższą częstotliwość ciemnych wzorów. Sneaking i retencja użytkownika były najczęstszymi ciemnymi wzorami we wszystkich kategoriach.

Źródło: Apart Research

Średnio badacze uznali rodzinę Claude 3 za najbezpieczniejszą dla użytkowników do interakcji. I co ciekawe — pomimo ostatniej katastrofalnej aktualizacji — GPT-4o wykazał najniższy wskaźnik pochlebstwa . Podkreśla to, jak zachowanie modelu może się drastycznie zmieniać nawet między drobnymi aktualizacjami, przypominając, że każde wdrożenie musi być oceniane indywidualnie.

Kran przestrzegł jednak, że pochlebstwo i inne negatywne zachowania, takie jak stronniczość wobec marki, mogą wkrótce się nasilić, zwłaszcza gdy studia LLM zaczną uwzględniać reklamę i handel elektroniczny.

„Oczywiście zobaczymy stronniczość marki w każdym kierunku” — zauważył Kran. „A ponieważ firmy AI muszą uzasadniać wyceny na poziomie 300 miliardów dolarów, będą musiały zacząć mówić inwestorom: »hej, zarabiamy tu pieniądze« — co doprowadzi do tego, gdzie Meta i inni poszli ze swoimi platformami mediów społecznościowych, czyli tymi ciemnymi wzorcami”.

Kluczowym wkładem DarkBench jest precyzyjna kategoryzacja ciemnych wzorców LLM, umożliwiająca wyraźne rozróżnienie halucynacji i strategicznej manipulacji. Oznaczanie wszystkiego jako halucynacji zwalnia programistów AI z odpowiedzialności. Teraz, dzięki wdrożonym ramom, interesariusze mogą żądać przejrzystości i odpowiedzialności, gdy modele zachowują się w sposób, który przynosi korzyści ich twórcom, celowo lub nie.

Podczas gdy ciemne wzorce LLM są wciąż nową koncepcją, pęd rośnie, choć nie dostatecznie szybko. Ustawa UE o AI zawiera pewne zapisy dotyczące ochrony autonomii użytkownika, ale obecna struktura regulacyjna pozostaje w tyle za tempem innowacji. Podobnie Stany Zjednoczone promują różne ustawy i wytyczne dotyczące AI, ale brakuje im kompleksowych ram regulacyjnych.

Sami Jawhar, jeden z głównych uczestników inicjatywy DarkBench, uważa, że ​​regulacje najprawdopodobniej zostaną wprowadzone najpierw w obszarze zaufania i bezpieczeństwa, zwłaszcza jeśli rozczarowanie społeczeństwa mediami społecznościowymi przełoży się na sztuczną inteligencję.

„Jeśli dojdzie do regulacji, spodziewam się, że jej wprowadzenie będzie wynikało z niezadowolenia społeczeństwa z mediów społecznościowych” – powiedział Jawhar portalowi VentureBeat.

Dla Krana problem ten pozostaje pomijany, głównie dlatego, że ciemne wzorce LLM są nadal nową koncepcją. Jak na ironię, zajęcie się ryzykiem komercjalizacji AI może wymagać komercyjnych rozwiązań. Jego nowa inicjatywa, Seldon , wspiera startupy zajmujące się bezpieczeństwem AI finansowaniem, mentoringiem i dostępem inwestorów. Z kolei te startupy pomagają przedsiębiorstwom wdrażać bezpieczniejsze narzędzia AI bez czekania na powolny nadzór i regulacje rządowe.

Oprócz ryzyka etycznego, ciemne wzorce LLM stanowią bezpośrednie zagrożenia operacyjne i finansowe dla przedsiębiorstw. Na przykład modele, które wykazują stronniczość marki, mogą sugerować korzystanie z usług stron trzecich, które są sprzeczne z umowami firmy, lub co gorsza, potajemnie przepisywać kod zaplecza, aby zmienić dostawców, co skutkuje gwałtownym wzrostem kosztów z powodu niezatwierdzonych, pomijanych usług cienia.

„To są ciemne wzorce zawyżania cen i różne sposoby robienia stronniczości marki” – wyjaśnił Kran. „To bardzo konkretny przykład, gdzie jest to bardzo duże ryzyko biznesowe, ponieważ nie zgodziłeś się na tę zmianę, ale jest to coś, co zostało wdrożone”.

Dla przedsiębiorstw ryzyko jest realne, nie hipotetyczne. „To już się wydarzyło i stanie się o wiele większym problemem, gdy zastąpimy inżynierów-ludzi inżynierami AI” — powiedział Kran. „Nie masz czasu, aby przejrzeć każdą linijkę kodu, a potem nagle płacisz za API, którego się nie spodziewałeś — i to jest w twoim bilansie, i musisz uzasadnić tę zmianę”.

W miarę jak zespoły inżynierii przedsiębiorstw stają się coraz bardziej zależne od AI, problemy te mogą szybko eskalować, zwłaszcza gdy ograniczony nadzór utrudnia wyłapywanie ciemnych wzorców LLM. Zespoły są już rozciągnięte, aby wdrożyć AI, więc przeglądanie każdej linijki kodu nie jest wykonalne.

Bez silnego nacisku ze strony firm zajmujących się sztuczną inteligencją w celu zwalczania pochlebstw i innych niejasnych wzorców, domyślnym kierunkiem będzie większa optymalizacja zaangażowania, więcej manipulacji i mniej kontroli.

Kran uważa, że ​​część rozwiązania leży w jasnym zdefiniowaniu przez programistów AI zasad projektowania. Niezależnie od tego, czy priorytetem jest prawda, autonomia czy zaangażowanie, same zachęty nie wystarczą, aby dopasować wyniki do zainteresowań użytkowników.

„Obecnie natura zachęt jest taka, że ​​będziesz miał pochlebstwo, natura technologii jest taka, że ​​będziesz miał pochlebstwo i nie ma na to żadnego przeciwstawnego procesu” – powiedział Kran. „To po prostu się stanie, chyba że będziesz bardzo uparty w mówieniu 'chcemy tylko prawdy' lub 'chcemy tylko czegoś innego'”.

W miarę jak modele zaczynają zastępować ludzkich programistów, autorów i decydentów, ta przejrzystość staje się szczególnie krytyczna. Bez dobrze zdefiniowanych zabezpieczeń LLM mogą podważać wewnętrzne operacje, naruszać umowy lub wprowadzać zagrożenia bezpieczeństwa na dużą skalę.

Incydent ChatGPT-4o był zarówno techniczną wpadką, jak i ostrzeżeniem. W miarę jak LLM-y coraz głębiej wkraczają w codzienne życie — od zakupów i rozrywki po systemy przedsiębiorstw i zarządzanie państwowe — wywierają ogromny wpływ na ludzkie zachowania i bezpieczeństwo.

„Naprawdę wszyscy muszą zdać sobie sprawę, że bez bezpieczeństwa AI — bez złagodzenia tych ciemnych wzorców — nie można używać tych modeli” — powiedział Kran. „Nie można robić rzeczy, które chcesz robić za pomocą AI”.

Narzędzia takie jak DarkBench oferują punkt wyjścia. Jednak trwała zmiana wymaga dostosowania ambicji technologicznej do jasnych zobowiązań etycznych i woli komercyjnej, która je poprze.

Codzienne spostrzeżenia na temat przypadków użycia biznesowego z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.

Przeczytaj naszą Politykę prywatności

Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .

Wystąpił błąd.

venturebeat

venturebeat

Podobne wiadomości

Wszystkie wiadomości
Animated ArrowAnimated ArrowAnimated Arrow